Model Selection

Multimodal Image-Text Reasoning

# Multimodal Image-Text Reasoning

Llama 3.2 90B Vision Instruct

Llama 3.2-Vision is a multimodal large language model developed by Meta, supporting image and text input with text output, excelling in visual recognition, image reasoning, image captioning, and visual question answering tasks.

Transformers Supports Multiple Languages

Llama 3.2 11B Vision

Llama 3.2-Vision is a series of multimodal large language models developed by Meta, available in 11B and 90B scales, supporting image + text input and text output, optimized for visual recognition, image reasoning, image captioning, and visual question answering tasks.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase